走向数据科学领域信息情报检索---XiaoMi-AI

2026年7月3日 16:30

AI 代理解释：什么是 ReAct 循环及其工作原理？

AI Agents Explained: What Is a ReAct Loop and How Does It Work?

代理如何推理、行动和观察最终答案，一次一步人工智能代理解释：什么是 ReAct 循环及其工作原理？首先出现在《走向数据科学》上。

2026年7月3日 15:00

长上下文与短上下文模型：长上下文模型何时获胜？

Long Context vs. Short Context Model: When Does a Long Context Model Win?

平衡上下文能力与成本、速度和数据后篇《长上下文与短上下文模型：长上下文模型何时获胜？首先出现在《走向数据科学》上。

2026年7月3日 13:30

LLM Wiki 过度设计 - 我用纯 Python 编译器替换了我的

LLM Wikis Are Over-Engineered — I Replaced Mine With a Pure Python Compiler

大多数“LLM wiki”使用代理、嵌入和重复模型调用来组织本地注释。我构建了一个确定性的替代方案：一个纯 Python 编译器，仅使用标准库将杂乱的 Markdown 转换为链接的、经过 linted 的 wiki。在此过程中，我修复了两个真正的错误，在两个操作系统上对管道进行了基准测试，并展示了为什么编译器通常比代理更适合机械文本组织。LLM 维基百科过度设计——我用纯 Python 编译器替换了我的编译器首先出现在《走向数据科学》上。

2026年7月3日 12:00

RAG 检索的未受启发的教训：余弦不是基础

The Untaught Lessons of RAG Retrieval: Cosine Is Not the Foundation

企业文档智能 [Vol.1 #7ter] - 检索砖上的六个位置与主流 RAG 的余弦优先反射相矛盾The post The Untaught Lessons of RAG Retrieval: Cosine Is Not the Foundation 首先出现在 Towards Data Science 上。

2026年7月2日 16:30

Tokenminning：如何以更少的成本从聊天机器人中获得更多

Tokenminning: How to Get More from Your Chatbot for Less

Tokenmaxxing 已出炉。在不牺牲人工智能有效性的情况下降低成本的真实模式《Tokenminning：如何以更少的成本从聊天机器人中获得更多》一文首先出现在《走向数据科学》上。

2026年7月2日 15:00

设计循环，而不是提示

Design Loops, Not Prompts

但不要让模型自行检查“设计循环，而不是提示”帖子首先出现在《走向数据科学》上。

2026年7月2日 13:30

时间序列法学硕士，用 t0-alpha 解释

Time-Series LLMs, Explained with t0-alpha

t0-alpha 是用于概率时间序列预测的解码器式补丁转换器。原始序列被分成 32 步补丁，嵌入，通过因果时间注意力和群体注意力层进行处理，并解码为未来分位数而不是单点预测。后时间序列法学硕士，用 t0-alpha 解释首先出现在《走向数据科学》上。

2026年7月2日 12:00

RAG 问题解析的未受教导的教训：搜索之前的结构

The Untaught Lessons of RAG Question Parsing: Structure Before You Search

企业文档智能 [Vol.1 #6ter] - 问题解析砖上的六个位置与主流 RAG 手册相矛盾The Untaught Lessons of RAG Question Parsing: Structure Before You Search 首先出现在 Towards Data Science 上。

2026年7月1日 16:30

为什么强大的机器学习看似简单 — 第 2 部分

Why Powerful ML Is Deceptively Easy — Part 2

下一个泄漏问题不仅仅是暂时的。它与空间、结构和覆盖范围相关。使用 DALL·E 创建的 AI 生成插图《为什么强大的 ML 看似简单 — 第 2 部分》首先出现在《走向数据科学》上。

2026年6月30日 15:00

在数据科学行为面试中生存

Surviving the Data Science Behavioral Interview

在人工智能时代，脱颖而出比以往任何时候都意义重大。这里有三个技巧，可以让你自信地参加下一次面试。《在数据科学行为面试中生存》一文首先出现在《走向数据科学》上。

2026年6月30日 13:30

如何最大化 Codex Exec 命令

How to Maximize Codex Exec Command

使用模型集合构建更强大的编码代理设置如何最大化 Codex Exec Command 帖子首先出现在 Towards Data Science 上。

2026年6月29日 17:34

经典NLP还能走多远？从词袋到令人毛骨悚然的作者识别堆叠

How Far Can Classical NLP Go? From Bag-of-Words to Stacking on Spooky Author Identification

关于 Kaggle 的 Spooky 作者识别任务的端到端经典 NLP 实验：从 Vowpal Wabbit 和 TF-IDF/NB-SVM 基线到调整后的堆叠集成，对 Bag-of-Words、BM25、Word2Vec 和 FastText 进行紧凑表示调查以获取上下文。经典 NLP 能走多远？《从词袋到怪异作者识别的堆叠》首先出现在《走向数据科学》上。

2026年6月29日 13:30